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摘要 : [目的 /意义 ] 探讨 采用 语义 网 的 方法 实现 区 别 于 传统 的 构建 机 构 知 识 库 联盟 的 方法 。[ 方 法 
/ 过 程 ] 把 现 有 的 机 构 知 识 库 内 容 发 布 为 关联 数据 ， 并 在 此 基础 上 采用 语义 网 的 方法 构建 基于 关联 数据 的 
机 构 知 识 库 联盟 . [结果 /结论 ] 基于 关联 数据 的 机 构 知 识 库 联盟 可 以 实现 资源 浏览 、 检 索 等 基本 的 功能 ， 
同时 也 可 以 采用 语义 扩展 、 语 义 推理 等 方法 实现 传统 联盟 无 法 实现 的 知识 服务 功能 。 构 建 基于 关联 数据 的 
机 构 知 识 库 联盟 是 语义 网 的 一 个 具体 实践 ， 可 以 提供 比 传统 联盟 更 多 更 好 的 功能 服务 ， 而 且 构建 的 成 本 投 
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@ 机 构 知 识 库 联 盟 发 展现 状 

机 构 知 识 库 (institutional repository, IR) 经 
过 最 近 几 年 的 发 展 ， 在 国内 外 都 获得 了 长 足 的 
进步 。 从 数量 上 来 看 ， 根 据 OpenDOAR (the 
Directory of Open Access Repositories， 开 放 获 取 
知识 库 目 录 ?站 点 统计 , RE 201646) 1H, iE 
册 登 记 的 机 构 知识 库 数量 达到 3 100 个 上 5; 在 
CALIS (China Academic Library & Information 
System， 中 国 高 等 教育 文献 保障 系统 ) 机 构 知 
识 库 站 点 上 登记 的 国内 大 陆 高 校 机 构 知 识 库 有 
40 个 中 ,实际 上 , 机 构 知识 库 数 量 远 不 止 这 些 , 因 
为 还 有 很 多 机 构 知 识 库 没有 在 这 些 网 站 上 登记 。 
从 OpenDOAR 站 点 的 机 构 库 数量 统计 图 上 可 以 
看 出 ， 随 着 时 间 的 推移 ， 机 构 知 识 库 数 量 仍 会 
保持 一 定 的 速度 持续 增长 。 


y 


随 着 机 构 知 识 库 数量 的 增多 ， 以 及 资源 内 
容 的 不 断 增 长 ， 实 现 机 构 之 间 资 源 共 建 共 享 的 
需求 越 来 越 强 烈 。 机 构 知 识 库 联盟 作为 资源 共 
建 共 享 的 一 种 方式 也 应 运 而 生 ， 有 学 者 认为 机 
构 知 识 联盟 是 机 构 知 识 库 的 未 来 发 展 趋 势 之 一 。 
通过 构建 机 构 知 识 库 联盟 ， 可 以 展现 联盟 整体 
的 学 术 研 究 成 果 ， 可 以 在 更 大 范围 内 进行 知识 
产 出 保存 和 共享 : 可 节约 成 本 , 体现 规模 效益 ”可 
促进 单个 机 构 知 识 库 的 建设 推广 ， 是 构建 全 国 
知识 基础 保存 设施 的 重要 步骤 中 1。 

截至 目前 ， 国 内 外 已 经 构建 了 不 少 的 机 构 
知识 库 联 盟 ， 既 有 国家 层面 的 联盟 ， 也 有 区 域 
性 的 联盟 ， 比 如 有 澳大利亚 的 ARROWD、 上 日 
本 的 JAIROA、 欧 盟 的 DRIVERD、 英 国 的 白 玫 
HANEKE S, 美国 的 ALADIN HX 93 R 


作者 简介 : Ef (ORCID: 0000-0002-4506-5612) ， 副 研究 馆 员 ， 硕 士 ，E-mail: xmu chen(xmu.edu.cn. 


收 稿 日 期 2016-10-18 发 表 日 期 : 2017-01-18 


^ 


本 文责 任 编辑 : 王 传 清 


202310.03151v1 


chinaXiv 


辫 俄 州 数字 知识 库 联盟 中 、 台 湾 学 术 机 构 典 
藏 中、 香港 地 区 HKIRWW、 中 国 科 学 院 文献 情 
报 中 心机 构 知 识 库 品 , 以 及 CALIS 机 构 知 识 库 巴 
等 。 

纵 观 目前 的 机 构 知 识 库 联 盟 ， 其 实现 资源 
联盟 的 技术 方式 主要 包括 如 下 3 种 

(OD 集中 方式 。 由 联盟 中 心 统一 构建 、 运 
行 及 维护 知识 库 系 统 ， 联 盟 成 员 将 数字 资源 上 
传 到 此 统一 系统 中 ， 并 在 此 系统 上 为 用 户 提供 
浏览 、 检 索 和 下 载 等 服务 。 联 盟 成 员 不 必 再 承 
担 构建 及 维护 系统 的 任务 ， 节 约 了 成 本 。 此 联 
盟 方 式 的 代表 有 白 玫 瑰 知 识 库 联 盟 、ALADIN 
联盟 等 。 

(2) 分 布 方式 。 联 盟 成 员 根据 共同 的 数 
据 交 互 标准 和 协议 分 别 构建 和 维护 各 自 独立 的 
机 构 知 识 库 。 联 盟 中 心 按照 数据 交互 标准 和 协 
议 采 集成 员 的 元 数据 到 中 心平 台 ， 但 原始 数据 
仍然 保留 在 成 员 机 构 知 识 库 之 中 。 在 联盟 中 心 
平台 上 为 用 户 提供 统一 浏览 和 检索 服务 ， 实 现 
一 站 式 服务 。 这 是 比较 常见 和 主流 的 联盟 方 
式 ，ARROW、JAIRO、 俄 辫 俄 州 数字 知识 库 联 
盟 、 台 湾 学 术 机 构 典 藏 、 香 港 地 区 HKIR、 中 国 
科学 院 文献 情报 中 心机 构 知 识 库 、CALIS 机 构 
知识 库 等 均 为 分 布 式 联盟 。 

(3) 综合 方式 。 联 盟 方式 既 有 集中 方 
式 ， 又 有 分 布 方式 ， 其 中 机 构 知 识 库 联 盟 的 分 
布 构建 方式 中 的 数据 交互 标准 和 协议 基本 上 是 
采用 Dublin Core 元 数据 作为 描述 资源 的 元 数据 
标准 ， 采 用 OAI-PMH 方式 进行 资源 元 数据 收 
市 。 其 工作 方式 是 在 联盟 中 心 设置 资源 收割 服 
务 器 ， 主 动 请 求 收割 联盟 成 员 机 构 知 识 库 的 元 
数据 ， 然 后 对 获取 的 元 数据 进行 集中 存储 ， 在 
此 基础 上 ， 构 建 联盟 统一 服务 平台 ， 为 联盟 成 
员 提 供 资源 统一 浏览 、 检 索 、 订 阅 、 下 载 等 信 
息 服务 。 男 一 方面 ， 这 种 通过 数据 收割 方式 构 
建 的 联盟 ， 需 要 专门 配置 资源 收割 服务 器 、 索 
引 服 务 器 、 前 端 服务 平台 服务 器 ， 以 及 元 数据 
资料 存储 空间 等 。 在 资源 收割 的 过 程 中 ， 常 常 
受到 联盟 成 员 数 量 、 资 源 内 容 数量 、 资 源 内 容 
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数据 质量 ， 以 及 通讯 网 络 方面 的 影响 。DRIVER 
联盟 就 是 采用 的 此 方式 。 

各 个 机 构 单独 构建 的 机 构 知 识 库 通过 上 述 
方式 组 建成 资源 联盟 后 ， 摆 脱 了 "信息 孤岛 ”"、 服 
务 资 源 有 限 的 窘境 ， 实 现 了 资源 统一 揭示 和 利 
用 ， 并 在 一 定 程 度 上 实现 了 联盟 成 员 之 间 资 源 
的 共 建 共享 。 然 而 ， 这 种 机 构 知 识 库 联盟 ， 其 
资源 只 是 限于 成 员 机 构 知识 库 中 的 资源 ， 与 知 
识 库 外 界 资 源 是 绝缘 的 ， 不 能 与 外 界 资源 进行 
关联 和 交互 , 而 且 , 联盟 资源 的 服务 对 象 是 人 , A 
略 了 机 器 。 这 与 机 构 知 识 库 的 真正 开放 精神 还 
存在 一 些 差距 。 


@ 关 联 数据 与 机 构 知识 库 


2.1 关联 数据 概述 

关联 数据 (inked data) fer rH T. Berners- 
Lee F 2006 4E 7 月 首次 提出 ， 目 前 成 为 被 W3C 
Cworld wide web consortium， 国 际 互 联网 协 
会 ) 推荐 的 一 种 用 来 发 布 和 联接 各 类 数据 、 信 
息 和 知识 的 规范 。 关 联 数据 采用 RDF (resource 
description framework， 资 源 描述 框架 ) 数据 模 
型 ， 利 用 URI Cuniform resource identifier， 统 一 
资源 标识 符 ) 命名 数据 实体 , 发 布 和 部 署 实 例 数 
据 和 类 数据 ， 从 而 可 以 通过 HTTP 协议 提示 并 
获取 这 些 数 据 ， 同 时 它 强 调 数据 的 相互 关联 、 相 
互联 系 和 有 益 于 人 机 理解 的 语 境 信息 。 

对 关联 数据 进行 访问 或 查询 ，W3C 推荐 采 
用 SPARQL 查询 语言 ， 它 是 一 种 从 RDF 图 获取 
信息 的 查询 语言 。 

关联 数据 的 构建 和 实现 需要 遵行 4 个 基本 
Ju] 07. Df FH URI 作为 任何 事物 的 标识 名 
Wr; @ 使 用 HTTP URI 让 任何 人 都 可 以 访问 这 
些 标 识 名 称 ; (8 当 有 人 访问 某 个 标识 名 称 时 ， 提 
供 有 用 的 信息 ; 尽 可 能 提供 相关 的 URI， 以 
使 人 们 可 以 发 现 更 多 的 事物 。 

关联 数据 对 数据 访问 方式 进行 了 标准 化 
操作 ， 用 户 或 代理 无 需 知道 某 具 体 关联 数据 发 
布 网 站 的 体系 架构 、 存 储 方 式 等 任何 技术 细 
节 ， 只 要 知道 Web 服务 器 地 址 ， 都 可 以 直接 用 
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SPARQL 进行 访问 。 作 为 一 种 数据 发 布 技术 ,由 
于 支持 语义 描述 ， 同 时 提供 标准 的 服务 接口 ， 其 
有 效 地 提高 了 数据 的 可 查找 性 和 重用 性 。 
2.2 机 构 知 识 库 发 布 为 关联 数据 的 优势 分 析 

机 构 知 识 库 作为 机 构成 员 学 术 作品 长 期 保 
存 和 统一 展示 的 学 术 信 息 平台 ， 采 用 了 标准 的 
资源 组 织 方式 和 资源 著录 方式 ， 具 备 转换 为 关 
联 数据 的 先天 优势 ， 归 纳 如 下 : 

(1) 句柄 系统 。 多 数 机 构 知 识 库 构建 软件 
都 使 用 句柄 系统 来 标识 内 容 对 象 ， 比 如 DSpace 
采用 CNRI 的 handle 系统 ， 每 一 个 对 象 被 赋予 
全 球 唯一 的 可 供 识 别 和 访问 的 handle 标 识 " 玉 。 
也 有 机 构 知 识 库 是 采用 DO 作为 句柄 系统 P". 

(2) 开放 访问 。 机 构 知识 库 的 资源 内 容 一 
般 都 遵循 开放 获取 政策 ， 在 Web 上 ， 用 户 可 以 
通过 浏览 器 和 全 球 唯 一 的 句柄 号 访问 对 应 对 象 
的 详细 信息 。 

G) 统一 元 数据 标准 。 为 了 方便 系统 之 间 
的 数据 交互 ， 多 数 机 构 知 识 库 构 建 软件 采用 了 
统一 的 元 数据 标准 ， 而 且 是 以 Dublin Core 元 数 
据 标 准 为 主 ， 而 Dublin Core 在 关联 数据 中 是 一 
个 重要 的 领域 本 体 。 

(4) 资源 组 织 方式 。 机 构 知 识 库 通常 是 按 
照 < 机 构 一 部 门 一 条 目 ” 来 组 织 资源 内 容 ， 这 种 
方式 默认 潜在 地 包含 了 资源 的 归属 和 层级 约束 
关系 。 

因此 ， 比 照 关联 数据 的 四 原则 ， 现 有 的 机 
构 知 识 库 已 经 具有 了 关联 数据 的 部 分 特征 ， 具 
备 把 现 有 机 构 知 识 库 内 容 发 布 为 关联 数据 的 条 
件 。 


O 基于 关联 数据 的 机 构 知识 联盟 实 
现 方式 


可 以 通过 两 步 来 实现 基于 关联 数据 的 机 构 
知识 库 联盟 ， 即 首先 把 各 个 机 构 知 识 库 内 容 发 
布 为 关联 数据 ， 然 后 在 此 基础 上 构建 联盟 服务 
系统 。 

3.1 发 布 关联 数据 
现 有 的 机 构 知 识 库 构 建 软件 底层 基本 都 
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采用 关系 型 数据 库 ， 因 此 ， 可 以 通过 关联 数据 
技术 直接 把 关系 型 数据 库 数据 发 布 为 关联 数 
据 。 目前 可 以 实现 的 技术 有 VirtucsoUniversal 
Server, Triplify, D2RQ 等 ， 其 中 D2RQ 技术 是 
推荐 的 主流 方案 中 。 如 果 机 构 知 识 库 构建 软件 
是 DSpace， 只 需要 进行 简单 的 安装 与 配置 ， 即 
可 把 对 象 数据 发 布 为 关联 数据 。 下 面 分 别 对 这 
两 种 实现 方式 进行 介绍 。 
3.1.1 D2RQ 发 布 关 联 数据 

D2RQ 能 够 将 关系 数据 库 抽 象 为 只 读 的 
RDF 图 ， 而 且 无 需 将 数据 拷贝 为 RDF 存储 ， 直 
接 提 供 基 于 RDF 的 数据 访问 的 开源 软件 平台 。 
D2RQ 平台 由 如 下 3 个 组 件 构成 P”: 

(D D2RQ 映射 语言 。 定 义 将 关系 型 数据 
转换 成 RDF 格式 的 映射 规则 。 

(2) D2RQ Engine。 使 用 D2RQ 映射 文件 
将 关系 型 数据 库 中 的 数据 映射 成 虚拟 的 RDF 数 
据 (实际 上 并 没有 将 关系 型 数据 库 发 布 成 真实 
的 RDF 数据 ) 。 当 访问 关系 型 数据 时 将 RDF 
数据 的 查询 语言 SPARQL 转换 为 关系 型 数据 的 
查询 语言 SQL， 并 将 SQL 查询 结果 转换 为 RDF 
三 元 组 或 者 SPARQL 查询 结 

(3) D2R Server, 它 是 — 个 HTTP 
Server, 主要 提供 对 RDF 数 据 的 查询 访问 接口 ,以 
供 上 层 的 RDF 浏览 器 、SPARQL 查询 客户 端 以 
及 传统 的 HTML 浏览 器 调用 。 三 者 关系 如 图 1 
Br: 


^ SPARQL 


1 
1 
Clients | 
"e 
» I SPARQL 
Linked Data BENE. — D2R 
Clients : E | Server 
-一 一 = oy alha 
ah 


l - 
Mapping 
File 
Local Java 


Application | (E 
V 4 he denafSesome D2RQ | a. Non-RDF 
p LRE dume | Engine Datab 


Triple Store 


图 1 D2RQ 结构 功能 示意 名 
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D2RQ 发 布 关联 数据 方法 步骤 如 下 O30; 
(1) 从 官网 上 下 载 并 解压 D2RQ 软件 到 合 
适 目录 。 
(2) 下 载 对 应 关系 型 数据 库 的 驱动 程 
序 JAR 包 ， 置 于 [d2rq-source]/lib/db-drivers/ 
目录 下 ， 并 注意 引用 该 程序 的 完整 类 名 
C 如: org.postgresql.Driver) 和 JDBC URL 
Bi 式 ( 如 : jdbc:postgresql://servername:5432/ 
database) 。 
(3) 生成 D2RQ 映射 文件 。 
(4) 启动 D2RQ 服务 。 
上 述 第 (3) 步骤 最 为 关键 和 重要 ， 需 在 命 
令 模 式 下 ， 切 换 到 [d2rq-source] 目录 ， 使 用 命令 
generate-mapping 生成 映射 文件 。 使 用 generate- 
mapping 命令 时 ， 必 须 指定 连接 数据 库 的 用 户 和 名 
和 密码 ， 需 要 发 布 为 关联 数据 的 数据 库 名 、 数 
据 表 名 、 字 上 段 名 等 ， 以 及 需要 忽略 或 跳 过 的 数 
ERA. TRAT. 
D2RQ 服务 启动 之 后 ， 可 以 在 本 机 浏览 
器 上 输入 如 下 地 址 进行 访问 和 测试 : http:/ 
localhost:2020， 此 时 ， 对 外 的 SPARQL 端点 地 
址 为 : http://localhost:2020/sparql。 
3.1.2 DSpace 发 布 关联 数据 
自从 5.0 版 本 开始 ，DSpace 支持 把 仓储 系 
统 中 的 数据 发 布 为 关联 数据 ， 使 其 在 支持 OAI- 
PMH 的 基础 上 上， 又 增加 了 一 条 分 享 内 容 的 渠道 。 
DSpace 把 对 象 内 容 发 布 为 关联 数据 的 方法 
步骤 09. 
(1) 修改 配置 文件 : 
(D [dspace]/config/dspace.cfg 
在 参数 变 量 “event.dispatcher.default. 
consumers” 之 后 添加 “rdf”。 
(2) [dspace]/config/modules/rdf.cfg 
设置 参数 变量 “public.sparql.endpoint” 和 
“contextPath”， 分 别 设置 成 需要 的 值 。 
(2) 下 载 并 开启 jena-fuseki 服务 : 在 linux 
下 ， 开 启 jena-fuseki 服务 的 命令 如 下 : 
export FUSEKI HOME=[path to fuseki]/ 
jena-fuseki;i$FUSEKI HOME/fuseki-server 
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--localhost --config[dspace]/config/modules/rdf/ 
fuseki-assembler.ttl 

执行 上 述 命令 后 ， 即 开启 了 fuseki 服务 ， 若 
是 第 一 次 执行 ， 会 在 [dspace] 目录 下 生成 
triplestore 目录 ， 与 RDF 相关 的 文件 便 存储 在 此 
目录 下 。 

(3) 生 成 RDF 文件 开局 fuseki 服务 后 , 可 

以 把 DSpace 系统 中 的 已 有 的 对 象 数 据 转化 为 
RDF 数据 (三 元 组 形式 ), 转化 的 操作 命令 如 下 : 

[dspace]/bin/dspacerdfizer -c —v 

执行 如 上 命令 后 ，DSpace 系统 中 的 所 有 可 
读 的 条 目 将 转化 为 RDF 数据 。 之 后 新 上 传 到 系 
统 中 的 条 目 数 据 将 自动 转化 为 RDF 数据 。 

(4) 部 署 RDF 虚拟 目录 : 在 安装 DSpace 

时 若 没 有 部 署 过 rdf， 此 时 需要 重新 部 署 ， 需 
要 J£ Ul [dspace]/webapps/rdf H 录 到 [tomcat]/ 
webapps/ 目录 下 。 

重新 启动 ttmcat 服务 后 ， 便 可 提供 关联 数 
据 服 务 ， 在 本 机 浏览 器 上 可 输入 如 下 地 址 进行 
访问 和 测试 ，http://localhost:3030/， 此 时 ， 对 外 
的 SPARQL 端点 地 址 为 : http://localhost:3030/ 
dspace/sparqgl。 

因此 ， 基 于 DSpace 构建 的 机 构 知 识 库 ， 只 
要 把 DSpace 系统 升级 到 5.0 以 上 版 本 后 ， 根 据 
上 述 方法 步骤 进行 操作 ， 即 可 发 布 关 联 数据 。 
3.2 基于 关联 数据 的 联盟 服务 系统 

联盟 服务 系统 是 统一 为 成 员 用 户 提供 服务 
的 平台 ， 与 传统 的 联盟 服务 相似 ， 包 括 统一 检 
索 服 务 、 资 源 浏览 服务 、 成 员 注 册 登 记 等 ， 但 
其 实现 方式 却 不 同 于 传统 的 联盟 。 
3.2.1 统一 检索 服务 

基于 关联 数据 的 联盟 不 需要 收割 各 成 员 机 
构 知 识 库 的 元 数据 ， 不 需要 集中 存储 元 数据 。 
其 统一 检索 服务 是 基于 各 个 成 员 机 构 知 识 库 提 
供 的 标准 SPARQL 端点 来 实现 。 具 体 可 以 采用 
开源 软件 DARQ 来 实现 。 

DARQ 是 一 个 基于 SPARQL 的 联邦 查询 
搜索 引擎 ， 是 在 Jena ARQ”. 的 基础 上 增加 了 一 
个 新 的 查询 设计 算法 ， 并 修改 查询 执行 引擎 扩 
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展 而 来 ， 为 不 同 的 、 分 布 的 SPARQL 端点 提供 
透明 查询 访问 。 对 用 户 而 言 ， 使 用 DARQ 查询 
多 个 SPARQL 端点 就 好 像 只 查询 一 个 SPARQL 
端点 ， 它 只 提供 一 个 查询 接口 ， 而 把 对 多 个 
SPARQL 端点 的 复杂 查询 的 联邦 细节 都 留 给 了 
查询 搜索 引擎 后 台 处 理 e, 

DARQ 的 具体 使 用 类 似 Jena ARQ 的 用 
法 ， 但 相对 比较 简单 。 关 键 是 需要 预先 设置 好 
服务 描述 配置 文件 Cservice descriptions) ， 定 
义 好 各 个 SPARQL 端点 的 服务 能 力 ， 比 如 
SPARQL 端点 的 URL 地 址 、 数 据 描述 、 访 问 模 
式 、 结 果 返 回 数量 等 等 。 
3.2.2 数据 浏览 

各 成 员 机 构 知 识 库 发 布 关联 数据 后 ， 用 
户 可 以 通过 语义 浏览 器 (semantic web 
browsers) ， 如 Disco"? Tabulator"", OpenL 
inkData "Jr P? 等 ， 浏 览 各 成 员 的 知识 库 中 的 
RDF 数据 。 由 于 关联 数据 的 特性 ， 用 户 可 以 跟 
随 RDF 语句 表达 的 链接 ， 在 不 同 的 数据 源 之 间 
浏览 ， 可 以 从 一 个 数据 源 开 始 逐 渐 壳 历 整 个 网 
络 。 如 果 原 来 机 构 知 识 库 已 经 进行 关联 语义 扩 
展 ， 将 会 浏览 到 更 丰富 的 内 容 。 这 种 浏览 方式 
有 别 于 传统 的 文档 链接 浏览 ， 将 带 给 用 户 不 一 
样 的 浏览 体验 。 
3.2.3 成 员 注 册 与 登记 

为 了 便于 联盟 成 员 之 间或 者 成 员 之 外 发 
现 和 利用 各 个 成 员 的 机 构 知 识 库 数据 ， 需 要 把 
成 员 机 构 知 识 库 的 相关 信息 进行 注册 和 登记 。 
登记 的 信息 需要 遵循 W3C 推荐 的 VoID 标准 
DU, È Æ RR RDF 数据 集 的 元 数据 ， 包 括 一 
般 性 元 数据 (general metadata?) 、 访 问 元 数据 
(access metadata) 、 结 构 元 数据 (structural 
metadata) 和 数据 集 间 关 联 描述 (description of 
links between datasets) 。 使 用 VoID 标准 登记 信 
息 是 为 了 便于 人 们 为 了 不 同 的 任务 而 找到 有 用 
的 数据 。 
3.2.4 知识 服务 

基于 关联 数据 的 机 构 知 识 库 联盟 其 实 是 一 
个 轻 量 级 的 语义 网 络 ， 可 以 利用 语义 关联 、 语 
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义 挖掘 和 推理 的 方法 发 现 有 用 的 信息 。 例 如 可 
以 把 作者 的 论文 和 科研 数据 进行 关联 ， 为 用 户 
展示 整个 科研 生命 周期 的 数据 生成 、 数 据 分 析 
和 科研 成 果 等 ， 可 将 某 一 知识 主题 的 相关 内 容 
进行 知识 聚合 ， 以 期 发 现 新 的 知识 内 容 ; 可 将 
相关 内 容 数据 之 间 的 关联 关系 建立 知识 地 图 ， 并 
利用 可 视 化 的 技术 表现 出 来 , 实现 知识 图 谱 等 。 
所 以 在 联盟 服务 端 需要 提供 多 种 知识 发 现 模 
式 ， 和 /或 者 SPARQL 查询 语句 可 编辑 器 ， 方 
便 用 户 设 置 不 同 的 知识 发 现 模 式 ， 结 合 机 器 学 
2], 挖掘 和 发 现 机 构 知 识 库 联盟 中 有 用 的 知识 。 


人 @ 分 析 与 讨论 

以 上 简要 介绍 了 把 现 有 机 构 知 识 库 内 容 发 
布 为 关联 数据 ， 并 在 此 基础 上 构建 联盟 服务 的 
方法 。 从 整个 构建 过 程 看 ， 有 其 优势 ， 也 有 其 
不 足 。 

优势 在 于 : 由 万 维 网 逐渐 扩展 到 语义 网 ， 是 
一 种 发 展 趋势 ， 而 基于 关联 数据 的 机 构 知 识 库 
联盟 正 是 在 这 个 趋势 下 的 一 个 具体 实践 ， 可 以 
探索 和 积累 万 维 网 向 语义 网 转变 的 方法 和 经 验 。 
@ 基 于 关联 数据 的 机 构 知 识 库 联盟 ， 是 一 种 轻 
量 级 的 语义 网 ， 可 以 借助 语义 网 的 理论 与 技术 
来 充分 利用 机 构 知识 库 中 的 数据 ， 发 掘 机 构 知 
识 库 数据 的 潜在 价值 ， 同 时 推进 语义 网 理论 创 
新 和 技术 进步 。(3) 基 于 关联 数据 的 机 构 知 识 库 
联盟 ,给 用 户 带 来 不 一 样 的 使 用 体验 和 感受 ,将 
促进 机 构 知识 库 的 内 容 建 设 和 系统 转型 升级 。 
(联盟 服务 系统 由 于 不 需要 收割 元 数据 ， 也 不 
需要 集中 存储 元 数据 ， 所 以 不 需要 额外 开发 收 
割 软件 ， 不 需要 部 署 收 割 服 务 、 存 储 服 务 絮 以 
及 索引 服务 器 等 ， 节 省 了 元 数据 收割 和 建立 索 
引 以 及 系统 维护 的 时 间 ， 费 将 比比 传统 分 布 式 
联盟 高 出 许多 。 

不 足 在 于 : 中 在 构建 过 程 中 ， 有 一 个 比 
较 大 的 问题 在 数据 质量 方面 。 目 前 的 机 构 知 识 
库 内 容 包括 了 期 刊 论文 、 会 议论 文 、 工 作文 
稿 、 专 利文 献 、 学 位 论文 、 图 书 章节 等 ， 由 于 
考虑 到 数据 加 工 、 数 据 交 互 等 方面 的 问题 ， 采 
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用 的 元 数据 标准 基本 上 都 是 Dublin Core 75 2X 
据 。 众 所 周知 ，Dublin Core 元 数据 标准 简洁 
轻便 ， 容 易 使 用 ， 但 是 其 优点 也 导致 了 其 不 
足 ， 表 现 为 对 资源 的 描述 不 够 深入 ， 比 如 没 
有 专门 的 元 数据 描述 期 刊 论文 的 参考 文献 部 
分 ， 使 得 论文 之 间 的 相互 参照 关系 缺失 ， 会 议 
论文 没有 会 议 相 关 的 属性 描述 ， 学 位 论文 没 
有 学 生 与 指导 教师 的 关系 ， 以 及 缺失 学 位 相关 
的 属性 等 。 关 联 数据 注重 实体 的 属性 及 之 间 的 
关系 ， 现 有 的 机 构 知 识 库 资 源 转化 关联 数据 
后 ， 实 体 的 属性 和 关系 不 够 丰富 ， 进 行 数据 推 
理 时 ， 达 不 到 预想 的 结果 。 因 此 机 构 知 识 库 发 
布 为 关联 数据 时 ， 需 提高 或 加 强 数 据 质量 ， 王 
思 丽 、 杨 雪 梅 等 提出 的 思路 和 方法 或 许可 以 提 
供 参 考 ， 即 首先 抽取 机 构 知 识 库 内 的 核心 实体 
类 ， 利 用 RDF 进行 语义 标注 和 关联 ， 关 联 到 外 
部 的 DBpediaOntology、DBLPBibliography 等 其 
他 关联 数据 集 ， 丰 富 语义 内 容 ， 然 后 再 发 布 为 
关联 数据 。 更 进一步 地 ， 在 发 布 关联 数据 
前 还 可 以 关联 到 机 构 学 者 中 心 、 项 目 成 果 中 心 
等 数据 源 ， 进 一 步 扩展 机 构 知 识 库 的 语义 内 容 。 
@ 关 联 数据 的 相关 应 用 技术 ， 还 有 待 完善 和 创 
新 。 比 如 前 述 构建 基于 关联 数据 的 机 构 知 识 库 
联盟 服务 系统 中 用 到 的 DARQ 软件 ， 在 检索 效 
率 方面 还 泛 善 可 陈 ， 特 别 是 在 SPARQL 端点 比 
较 多 时 ， 检 索 效率 比较 低下 。 再 比如 语义 浏览 
器 ， 有 些 多 年 未 更 新 ， 其 功能 还 是 比较 单一 、 粗 
糙 ， 有 竺 加 强 和 完善 ， 在 使 用 体验 上 还 竺 提高 。 
造成 这 种 局 面 的 原因 主要 是 因为 关联 数据 还 处 
于 发 展 初 期 ， 宣 传 推 广 不 足 ， 参 与 开发 与 研究 
的 人 员 不 多 ， 缺 乏 投入 等 。 


(5 结语 


把 机 构 知 识 库 内 容 发 布 为 关联 数据 ， 并 
在 此 基础 上 构建 机 构 知识 库 联 盟 ， 实 现成 员 之 
间 资 源 共 建 共享 的 目的 。 联 盟 不 但 提供 传统 的 
资源 检索 、 浏 览 等 服务 ， 而 且 还 提供 可 定制 的 
知识 服务 。 基 于 关联 数据 的 联盟 是 开放 的 ， 不 
但 联盟 成 员 之 间 可 以 互联 ， 联 盟 也 可 以 与 其 他 
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关联 数据 集 进行 互联 ， 实 现 了 真正 意义 上 的 开 
放 ， 为 机 构 知 识 库 的 应 用 提供 了 更 广阔 前 景 。 
本 文 对 此 联盟 方式 只 是 在 技术 实现 上 进行 了 探 
讨 ， 尚 未 进行 正式 的 实践 ， 希 望 在 今后 的 具体 
实践 中 进一步 探索 。 
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Data 
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Abstract: [Purpose/significance] This paper aims to explore the method of using semantic web to build 
confederation of institutional repository which is different from the traditional way. [Method/process] It 
publishes the institutional repository content as linked data firstly, and uses the method of the semantic web 
to build confederation of institutional repository. [Result/conclusion] The confederation of institutional 
repository based on linked data can realize the basic functions such as browsing and retrieving. At the same 
time, the confederation can realize knowledge service function by extending semantic content and semantic 
reasoning. Building confederation of institutional repository based on linked data is a specific practice 
of semantic web, the confederation can provide more and better functional services than the traditional 
confederation, and the construction cost is low. 
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